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摘 要 : 邻 域 粗 糙 集 应 用 的 好 坏 依赖 于 邻 域 大 小 8 的 取 值 。 在 使 用 基于 邻 域 粗 糙 集 的 属性 约 简 算 法 时 ， 现 有 的 8 取 值 
方法 一 般 是 点 值 式 的 ， 即 仅 凭借 人 的 经 验 指定 茶 个 值 ， 这 种 方法 在 对 6 取 值 时 没有 结合 实际 问题 的 具体 情况 ， 因 此 在 
算法 的 实用 性 上 可 以 作 进 一 步 讨论 。 为 此 ， 提 出 一 种 自 适应 5 取 值 方法 ， 其 最 大 特点 是 不 指定 8 取 值 ， 而 是 指定 9 取 
值 的 区 间 ， 然 后 在 该 取 值 区 间 上 ， 通 过 使 用 一 种 结合 了 数据 集 和 分 类 器 自身 特性 的 适应 值 函数 自动 地 选 出 最 合适 的 了 
取 值 。 实 验 结果 表明 ， 相 比 点 值 式 8 取 值 方法 ， 通 过 自 适应 8 取 值 方法 能 找到 属性 个 数 更 少 ， 而 分 类 精度 更 高 的 属性 
集 。 实 验证 明 该 方法 能 进一步 提高 基于 邻 域 粗 糙 集 的 属性 约 简 算 法 的 实用 性 。 
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Abstract: The application of neighborhood rough set depends on the value of neighborhood size 5. When using attribute 
reduction algorithms based on neighborhood rough set, an existing method for determining 5 is usually point-type, that is, to 


specify a value only by human experience. The method does not combine with the actual situation when it 1s used to determine 


6 » 50 the practicability of the algorithms can be further discussed. For this reason, an adaptable method for determining § is 
proposed. The biggest characteristic is not determining $ but the interval of 5,thenthe most appropriate $ in the interval 


is forwardly selected by using a fitness function that is combined with the characteristics of data sets and classifiers. The 


experimental results show that, compared with the point -type method for determining 5$, this method can find reduction sets 


which number of attributes is less, and classification accuracy is higher, which proves that this method can further improve the 


practicability of attribute reduction algorithms based on neighborhood rough set. 
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0 引言 邻 域 粗 糙 集 的 属性 约 简 算法 在 对 一 个 数据 集 进行 属性 约 简 时 ， 
其 结果 的 好 坏 依赖 于 邻 域 大 小 5 的 取 值 58-9。 合 适 的 5 取 值 能 
粗糙 集 理 论 认 为 知识 是 有 粒度 的 ， 它 是 一 种 对 论 域 中 对 象 ”让 算法 得 到 较 好 的 属性 约 简 集合 ， 而 不 合适 的 5 取 值 则 会 让 算 
进行 分 类 的 能 力 巾 。 经 典 的 Pawlak 粗粮 集中 采用 等 价 划 分 和 等 ” ”法 得 到 一 般 ， 甚 至 是 很 差 的 属性 约 简 集合 。 对 于 约 简 算法 得 到 
约 


价 类 的 概念 保证 了 粒度 计算 的 进行 ,但 是 这 种 处 理 方式 只 适用 ”的 约 简 集合 ， 本 文 希望 属性 个 数 较 少 且 有 效 性 较 高 。 其 中 ， 约 
于 离散 型 变量 ， 而 现实 应 用 中 需要 处 理 的 数据 类 型 往往 是 数值 — 简 集 合 的 有 效 性 体现 在 分 类 器 根据 该 约 简 集合 对 数据 集 进行 分 
型 的 ， 这 种 局 限 沾 组 了 粗糙 集 理 论 的 应 用 。 类 后 得 到 的 分 类 精度 上 ， 分 类 精度 越 高 ， 则 约 简 集合 的 有 效 性 

针对 上 述 问题 , Zadeh9l 提 出 了 信息 粒 化 和 粒度 计算 的 概念 。“” 越 高 。 因 此 ， 针 对 5 取 值 的 讨论 就 显得 十 分 重要 且 有 意义 了 。 
Linm 在 信息 粒 化 、 粒 度 的 基础 上 提出 了 邻 域 模型 的 概念 。HuG 现 有 的 5 取 值 方法 一 般 是 点 值 式 的 ， 即 仅 根 据 人 的 经 验 指 
基于 邻 域 粒 化 和 粗糙 逼近 , 提出 的 邻 域 粗糙 模型 7 可 以 处 理 数 E g RAMAS 77191. 例如, Hub 在 与 其 他 算法 的 对 比 实验 中 ， 


值 型 数据 ， 这 进一步 拓展 了 粗糙 集 理 论 的 应 用 范围 。 但 是 ， 和 指定 提出 的 邻 域 粗 糙 集 算法 中 5 = 0.125 ， 刘 包 在 与 其 他 算法 的 
经 典 的 Pawlak 粗糙 集 不 同 , 因为 引入 了 邻 域 粒 化 的 概念 , 基于 “对比 实 验 中 ， 指 定 提出 的 邻 域 粗 糙 集 算法 中 5 为 数据 集 归 一 化 
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之 后 的 标准 差 ， 段 在 与 其 他 算法 的 对 比 实验 中 ， 针 对 不 同 数 
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首先 介绍 一 种 属性 约 简 算 法 ， 然 后 基于 此 算法 对 不 同 的 5 取 值 


据 集 ， 指 定 提 出 的 邻 域 粗糙 集 算法 中 5 AEE; Chen I- 
其 他 算法 的 对 比 实验 中 ,指定 提出 的 邻 域 粗粮 集 算法 中 5 =0.1 
等 等 。 但 是 ， 需 注意 到 ， 对 于 不 同 的 数据 集 和 分 类 器 ， 它 们 本 

的 性 质 是 不 同 的 。 例 如 ， 有 的 数据 集 含有 的 噪声 数据 较 少 ， 
而 有 的 数据 集 则 较 多 ;， 同 一 数据 集 的 某 个 属性 集合 可 能 在 一 个 
分 类 器 上 分 类 效果 较 好 ， 而 在 另外 一 个 分 类 器 上 的 分 类 效果 较 
差 。 因此， 这 种 仪 凭借 经 验 ， 没 有 结合 具体 实际 情况 的 5 BUB 
方法 ， 在 一 定 程度 上 限制 了 属性 约 简 算法 的 实用 性 。 
针对 上 述 问题 ， 本 文 提出 一 种 自 适 应 的 邻 域 粗 糙 集 5 取 值 


进行 可 靠 性 分 析 。 

定义 6050 属性 约 简 。 给 定 一 个 决策 表 
NDT-(U,C D,V,f): YBa C> 有 满足 Pos,(D)=Pos.(D)， 
则 称 B 是 一 个 独立 属性 子 集 ; 如 果 对 yaeB ， 


A 


Pos, (D) «Pos, (D)> WFK p 2g c 的 一 个 属性 约 简 。 

贪心 策略 具有 以 较 少 时 间 求 解 最 优 解 或 次 优 解 的 特点 。 
HuDI 结 合 贪心 思想 构造 了 一 种 前 向 贪心 的 决策 表 属 性 约 简 算 
法 (Fast forward heterogeneous attribute reduction based on 


neighborhood rough sets, F2HARNRS), F2HARNRS 算法 被 提出 


YE 


方法 。 该 方法 不 指定 5 取 值 ， 而 是 指定 s 取 值 范 围 ， 通 过 结合 
数据 集 和 分 类 器 本 身 的 性 质 ， 设 计 一 种 适应 值 函数 用 于 评价 取 
值 范围 中 各 5 取 值 的 好 坏 ， 并 自动 选取 适应 值 最 大 的 5 取 值 作 


后 得 到 了 广泛 地 应 用 与 研究 S11。 本 文中 对 5 取 值 的 讨论 将 建 
立 在 该 算法 的 基础 上 。 
F2HARNRS 算法 将 原 属性 集 下 的 正 域 样本 个 数 作为 贪心 


为 最 终结 果 。 此 外 ， 可 以 通过 调整 适应 值 函数 的 权 值 使 算法 更 
好 地 满足 实际 应 用 的 需求 ， 进 一 步 提升 算法 的 实用 性 。 


1 ”相关 概念 [2] 


14. 邻 域 粒 化 

定义 1 REHA., AGE n 维 实数 空间 R, ， 对 于 空间 中 的 
FEX PRA EE x-(xux, 2x) Hox Qux 2x0 EX 
d(x,x) 是 Rr* 上 的 一 个 度量 计算 ， 一 般 选 用 欧 氏 距离 ， 即 


1 


n 


das) (X 


定义 2 邻 域 粒子 。 在 实数 空间 上 ， 定 义 样本 的 非 空 有 限 
集合 U={x,x% xp Hy 为 论 域 .定义 y 上 的 样本 的 5 
- 邻 域 为 6(x)={x, | x, €U,d(x,x)Xó): 其 中 5s>0。 ó(x) 称 做 
x, 生成 的 5 - 邻 域 信息 粒子 ， 简 称 为 x 的 邻 域 粒子 。 

1.2 决策 表 及 上 下 近似 

定义 3 ”决策 表 。 定 义 四 元 组 NDT=(U,C DV, 了) 为 决策 
R. Py 是 论 域 ，C 是 条 件 属 性 集 ，D 是 决策 属性 集 ， 且 
C D- Q» CØ: DØ: V 是 信息 函数 的 值 域 。 

定义 4 上 下 近似 ,给 定 一 个 决策 表 NDT=(U,C D,V,f)» 
D Eu 划分 为 个 等 价 类 ，D,D,,.….,D,，YBeC， 定 义 决策 
BER p 关于 p 的 下 近似 和 上 近似 为 


2 
X —X 
ip jp 


N D= N,D,> 


B B 
i=l 


ND= N,D, 


其 中 ， N,D - (x |ó,(x) c D.x eU), 
N,D-(x|o,(x) D *O.x eU) 


EE p 关于 p 的 正 域 为 Pos,(D) = N,D ， 边 界 


[ma 


域 为 BND,(D) - N,D- N,D > $373 NEG, (D) -U - N,D -° 


2  F2HARNRS 算法 及 5 取 值 分 析 
为 了 分 析 8 取 值 对 基于 邻 域 粗 糙 集 的 属性 约 简 算法 的 影响 ， 


标 ， 其 具体 策略 是 : 初始 化 属性 约 简 集 合 为 空 集 ， 此 时 当前 
正 域 为 空 集 ， 每 次 选取 使 当前 正 域 中 样本 个 数 增加 最 多 的 属性 
加 入 集合 ， 直 至 待 选 的 任意 属性 均 不 再 增加 正 域 中 样本 个 数 或 
待 检 验 的 样本 全 划 入 当前 正 域 中 时 ， 输 出 集合 。 其 中 ， 根 据 新 
曾 加 的 属性 不 会 使 已 属于 正 域 的 样本 变 为 非 正 域 样本 这 一 性 质 ， 
在 算法 的 计算 过 程 中 ， 每 次 仅 对 还 未 判定 为 正 域 的 样本 进行 正 
或 计算 。 如 算法 1 所 示 。 

算法 1: 

Input: 决策 表 (U,C D,V, f)? 8 

Output: 属性 约 简 集合 red 

初始 化 red=@ ， 待 检验 样本 smp chk-U ， 
样本 数 最 多 的 正 域 集合 max pos2? max_pos=@ 对 应 的 


el 
=i 


TE max i22 
while smp chk + Ø 

max pos = Ø; 
foreach k, e(C-red) 

Pos,=Pos(smp_chk,red k,,D,ô); 

if |max pos|«|Pos,| 

max pos-Pos,; 

max i-k,; 

end if 
end for 
if max pos + Ø 


red=red max i; 


smp chk-smp chk-max pos; 

else 

break; 

end if 

end while 

return red; 

在 算法 1 中 ， Pos(smp chk,red k.,D,5) 是 正 域 计 算 函 数 ， 
也 是 算法 时 间 开 销 最 大 的 部 分 。 它 的 功能 是 :在 当前 5 取 值 下 ， 
求 得 smp_chk 中 决策 属性 p 关于 条 件 属性 集合 red k, 的 正 域 。 
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个 属性 , 且 每 增加 一 个 属性 正 域 


在 该 算法 下 ,假设 某 一 数据 集 有 m 个 属 怕 


E， 约 简 结 果 中 包含 


Pp 增加 |[ 个 样本 , 则 算法 1 进 
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3 ” 自 适 应 的 5 取 值 方法 


k 根据 第 2 节 的 分 析 ， 本 文 提出 的 s 取 值 方法 的 主要 工作 在 
行 样本 是 否 属于 正 域 的 判定 次 数 为 Pe 将 评价 标准 由 仅 依据 人 的 经 验 改 进 为 结合 实际 数据 集 和 分 
k-1 1 类 器 的 性 质 ， 且 将 评价 8 取 值 的 好 坏 转换 为 分 析 其 对 应 约 简 集 
m|U | (m — 1)|U | — -...- (m- k)|U|— 
k k 合 可 靠 性 的 高 低 。 其 中 ， 约 简 集 合 可 靠 性 的 高 低 可 以 通过 数据 
UU Es) 至 观 地 体现 出 来 。 自 适应 的 5 取信 方法 的 主要 思想 是 ， 指 定 5 
aae 取 值 范围 ， 并 在 该 范围 上 选取 多 个 待 比 较 的 8 取 值 ， 然 后 对 各 
== 5 取 值 进 行 评价 ， 最 后 将 最 好 的 8 取 值 作 为 结果 。 
可 以 看 出 , F2HARNRS 算法 的 效果 与 5 取 值 紧 密 相关 ，58 结合 实际 情况 ， 提 出 一 种 用 于 评价 8 取 值 好 坏 的 适应 值 函 
取 值 不 同 则 F2HARNRS 算法 的 效果 不 同 。 这 是 因为 在 不 同 的 。” 数 ,该 函 数 主要 包含 两 个 变量 lenem 和 ratio ， 表 示 对 应 约 简 集 
à 取 值 下 形成 的 邻 域 粒子 6(x ) 不 同 , 这 造成 正 域 计 算 的 结果 不 GWT EP, length 表示 在 该 5 取 值 下 ， 属 性 约 简 算法 
司 ， 进 而 造成 F2HARNRS 算法 根据 正 域 计算 得 到 的 属性 约 简 ”所 得 的 约 简 集合 中 属性 个 数 的 适应 值 ， ratio 表示 在 该 取 值 下 ， 
集合 也 不 同 。 其 中 ， 不 同 约 简 集 合 的 可 靠 性 也 是 不 同 的 。 约 简 分 类 器 根据 约 简 集合 对 数据 集 进行 分 类 后 所 得 的 分 类 精度 的 适 
集合 的 可 靠 性 主要 体现 在 约 简 集 合 中 属性 个 数 和 分 类 算法 根据 R s 取 值 的 适应 值 取决 于 这 两 个 变量 的 加 权 求 和 ， 如 式 (1) 
该 约 简 集合 进行 分 类 后 得 到 的 分 类 精度 上 ， 即 对 原 属性 集 是 否 MR- 
达到 了 较 好 的 约 简 效果 ， 约 简 后 是 否 仍 能 保证 分 类 精度 没有 严 fit(6) - à length B- ratio a) 
EER. EK, FMHARNRS 算法 的 终止 条 件 有 2 个 : 其 中 :wg 和 是 两 个 权 值 ， 且 满足 w>0， p>0， w+p=1。 
smp_chk =Ø 和 max_pos = 名 ， 即 待 检验 的 样本 全 划 入 当前 正 。” 权 值 的 设置 可 以 根据 应 用 需求 进行 调整 ， 增 大 侧重 项 相应 权 值 


域 中 或 待 选 的 任意 属性 均 不 再 增加 正 域 中 样本 个 数 ， 任 何 一 个 


条 件 成 立 则 


算法 结束 。 


分 析 在 8 取 值 逐渐 增 大 的 过 程 中 
的 可 靠 性 。 


况 及 对 应 约 简 集合 
间 中 ， 当 5 BUB 


随 着 5 取 值 的 增 大 ，6(x) H 


原 属性 集中 的 任意 两 个 条 件 属 
E 域 中 ， 即 使 算法 1 中 的 条 件 smp_chk = 
届 性 约 简 没有 意义 ， 约 简 集 合 red 的 可 靠 性 为 零 ; 1( 
直至 在 某 个 较 大 


如 图 
BUNT, (x) 


éi 


1 所 示 ， 


性 都 能 使 所 有 


图 


P 包含 样本 X 


QOL, HERF 


FP 样本 增多 ， 


EF, ó(x) 包含 整个 论 域 


的 样本 ， 此 时 
不 能 使 任意 的 待 检测 样本 划 入 正 域 中 ， 


即 


的 待 检测 样本 划 


FP 邻 域 粒子 5(x) 的 变化 情 
1(a) 中 ， 在 当 


前 
， 此 时 
入 
所 得 的 
b) 中 ， 
的 5 取 


任意 2 个 条 件 属性 都 


使 算法 1 中 的 条 件 


max_pos= 包 成 立 ， 此 时 正 域 中 样本 个 数 为 0, 约 简 集合 red 为 
空 , 约 简 集合 red 的 可 靠 性 也 为 零 。 这 说 明 随 着 5 取 值 的 增 大 ， 


约 简 集合 


red 的 可 靠 性 先 


曾 大 后 减 小 。 其 中 ， 这 种 可 靠 性 的 变 


化 过 程 因数 据 集 和 分 类 器 的 不 同 而 不 同 ， 因 此 仅 赁 经 验 的 点 值 


式 85 取 值 方法 在 一 定 程度 上 并 不 能 得 至 
法 效果 的 最 大 化 ， 限 制 了 算法 的 实用 性 。 


上 最 好 的 5 取 值 和 保证 算 


(a) 9 取 值 较 小 时 的 情况 
6 取 值 的 两 种 极端 情况 


图 1 


(b) 6 取 值 较 大 时 的 情况 


的 比重 。 本 文 实验 部 分 采用 w-04 ， p=0.6 ° 
本 文 5 取 值 方法 的 步骤 为 : 


9 指定 取 值 区间 [w. 习 (az0) ， 并 选取 个 待 比较 的 5 取 值 ; 


b) 计 算 各 8 取 值 下 属性 约 简 算法 得 到 的 约 简 全 
对 应 的 属性 个 数 和 分 类 精度 ; 
c¢) 对 


整 leneth 2 1—length 。 即 对 某 个 约 简 集合 而 言 ， 属 


length 值 越 高 ， 分 类 精度 越 高 ratio 值 越 高 ; 
9 代入 式 (D) 中 计算 各 5 取 值 的 适应 值 fit(8) > 
值 最 大 的 5 取 值 作为 最 后 结 


Et. APA 


上 述 两 组 记录 length 和 ratio 进行 归 一 化 处 理 ， 之 后 调 


性 个 数 越 少 


并 选取 适应 


根据 第 2 节 中 的 分 析 可 知 ， 约 简 集合 red 的 可 靠 性 是 先 增 


大 后 减 小 的 ， 这 说 明 8 取 值 过 小 或 过 大 都 是 无 意义 的 。 一 般 来 


t 体 情况 进行 


说 取 值 区 间 [as b] (a +0) 应 包含 于 (0,0.8] ,可 根据 
选取 。 在 Hu 外 的 实验 结论 中 ， 针 对 其 选取 的 数据 
[0.1,0.3] 是 5 较 好 的 取 值 区 间 ， 大 多 数 分 类 器 在 出 


论 ， 指 定 的 取 值 区 间 为 [0.02,0.4] ， 以 0.02 增进 ， 


提高 该 方法 的 效率 。 


5 取 值 个 数 为 x ， 属 性 约 简 算法 的 时 间 开 销 为 0， 
法 的 时 间 开 销 可 以 表示 成 4.0,,( ) 。 对 
若 其 0,( ) 很 大 ， 可 适当 调整 取 值 范围 


及 增进 量 。 


4 ”实验 分 析 


在 本 次 实验 中 ， 首 先 采 用 “F2HARNRS+SVM” 的 方式 并 通 
E 数 不 同 的 UCI 数 据 集 分 析 & 取 值 与 属性 个 数 及 分 类 精 


de 


于 不 同 的 属性 约 简 算法 ， 


集 和 分 类 器 ， 
to 的 取 值 下 


可 以 获得 良好 的 分 类 性 能 。 在 本 文 实验 中 ,参考 HuD 的 实验 结 


共 取 得 20 个 


待 比较 的 5 取 值 ， 效 果 较 好 。 合 理 的 取 值 区 间 能 避免 无 用 功 ， 


其 次 ， 该 方法 的 时 间 开 销 主 要 在 于 步 又 b)。 若 需要 比较 的 


am 
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度 之 间 的 关系 ;然后 对 比 点 值 式 和 自 适 应 的 5 取 值 方法 ， 分 别 此 时 的 5 取 值 为 饱和 点 (如 图 2 虚线 所 示 )。 
记录 在 这 两 种 方法 下 ， 采 用 “F2HARNRS+SVM” 方 式 和 42.2 6 的 取 值 和 SVM 算法 的 分 类 精度 


"F2HARNRS-1-NN"7; RE 7 个 不 同 的 UCI 数据 集 上 所 得 的 属 5 的 取 值 与 分 类 精度 的 关系 如 图 3 所 示 。 
性 个 数 和 分 类 精度 ; 最后， 分 析 实 验 结果 并 得 出 结论 。 其 中 ， 
对 于 两 种 分 类 算法 ， 随 机 地 选取 数据 集中 每 类 对 象 的 2/3 作为 1 
训练 集 ，1/3 作为 测试 集 ， 算 法 执行 20 次 ， 分 类 精度 的 结果 取 = 0.99 | 
N 
均值 。 '5 0.98 | 
二 + S | 
4.1 实验 环境 & 0.97 | 
UCl(University of California Irvine)(http://archive.ics.uci. S 0.96 | 
edu/ml) 提 供 了 一 系列 用 于 测试 的 标准 数据 集 。 本 文 从 UCI 数 0.95 á 1 à 1 
据 集中 挑选 了 7 个 数值 型 数据 集 ， 其 中 ， 每 个 数据 集 提 供 了 条 " S tA. T 
件 属性 和 决策 属性 。 
(a) Wine 数据 集 
AY 数据 集 描述 
: i 0.98 T á | 
数据 集 样本 数 ”属性 数 “类别 数 - 
Wine 178 nB 3 B uns | 
WDBC 569 30 à > | 
Sonar 208 60 2 5 0.97 | 
WPBC 198 33 2 S | 
Ionosphere 351 33 2 0.965 | i 
0 0.2 0.4 0.6 
Credit Approval 690 13 2 DELTA value 
German Credit 1000 24 2 (b) WDBC 数据 集 
本 次 实验 在 一 台 Intel? Core™ i5 CPU 和 4 GB 内 存 的 PC 
机 上 ， 采 用 Windows 7 环境 下 的 MATLAB R2016b 进行 算法 仿 s -— 
ET 5 l 
Pe Fry | 
42 5 取 值 与 实验 结果 B ozs | 
S o. 
4.2.1 取 值 和 属性 约 简 个 数 的 关系 9 
在 区 间 [0.04,1] 上 ， 按 0.04 增进 ， 共 取得 25 个 8 取 值 ， 记 | | 
录 不 同 5 HUÉ T F2HARNRS 算法 在 数据 集 Wine, WDBC 和 ^0 0.2 0.4 0.6 
y ds - " 5 DELTA value 
Sonar 上 所 得 约 简 集合 中 属性 的 个 数 以 及 SVM 分 类 算法 根据 该 
(c) Sonar 数据 集 


约 简 集合 对 数据 集 分 类 后 的 分 类 精度 。 
5 取 值 与 属性 个 数 的 关系 如 图 2 所 示 。 


图 3 5 PUES SVM 分 类 精度 之 间 的 关系 


分 析 图 3 中 (a)~(c)， 横 线 代表 原 属性 集 的 分 类 精度 ， 折 线 
代表 不 同 8 取 值 下 对 应 的 分 类 精度 ， 虚 线 代表 饱和 点 。 以 饱和 
点 为 基准 ， 将 图 3 中 (a)~(c) 分 为 前 后 两 部 分 。 根据 4.2.1 节 中 对 
饱和 点 的 表述 可 知 : 对 同一 数据 集 的 原 属性 集 而 言 ， 前 半 部 分 
x | 对 应 着 在 不 同 5 取 值 下 的 约 简 集合 ， 后 半 部 分 对 应 着 原 属性 集 
| 或 者 属性 集合 为 空 。 根 据 实验 目的 重点 分 析 前 半 部 分 。 

. | [Z2 Sonar 分 析 前 半 部 分 :首先 ,3 条 折线 均 呈 现 上 升 趋势 , 且 图 3(a)(b) 
0 0.2 0.4 0.6 中 折线 到 达 某 个 顶点 后 稳定 。 这 说 明 ， 随 着 8 取 值 的 增 大， 约 
pesci 简 集合 的 有 效 性 逐渐 增加 ， 且 在 (a)(b) 中 达到 了 最 大 值 ， 其 次 ， 

各 图 中 饱和 点 不 同 ， 最 大 精度 值 和 最 小 精度 值 之 间 的 差 值 也 不 

如 图 2 所 示 ， 对 同一 数据 集 ，5 取 值 不 同时 ， 所 得 的 属性 。” 同 ， 特 别 是 在 Sonar 数据 集中 ， 这 种 差 值 达到 了 近 10 个 百 分 
个 数 也 不 同 ， 过 大 或 过 小 的 8 取 值 没有 对 应 的 结果 ， 这 进一步 。 ”点 。 这 说 明 每 个 数据 集 的 特性 是 不 同 的 。 对 于 特性 各 异 的 数据 
说 明 过 大 或 过 小 的 8 取 值 均 是 无 意义 的 。 随 着 5 取 值 的 增 大 ， ” 集 ， 若 仅 凭 经 验 指定 某 个 5 取 值 ， 然 后 用 得 到 的 约 简 结果 去 证 
所 得 属性 的 个 数 增 大 ， 直 到 增 大 到 某 个 值 时 稳定 或 者 为 空 ， 称 。“” 明 属 性 约 简 算法 的 效果 ， 这 种 做 法 是 可 以 进一步 改进 的 。 
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44.3 实验 结论 实际 情况 选择 较 好 的 5 取 值 。 可 以 看 出 ， 对 于 同一 个 分 类 器 而 
总 体 来 说 ， 随 着 5 取 值 的 增 大 ， 属 性 个 数 增多 ， 分 类 精度 言 ， 在 不 同 的 数据 集 上 合适 的 5 取 值 是 不 同 的 ， 对 于 同一 个 数 
增 大 ， 而 本 文 希望 的 结果 是 属性 个 数 较 少 ， 分 类 精度 较 高 。 针 ” 据 集 而 言 ， 在 不 同 分 类 器 上 合适 的 5 取 值 也 是 不 同 。 大 体 上 ， 
对 这 种 情况 ， 点 值 式 s 取 值 方式 在 一 定 程度 上 限制 了 约 简 算法 相 比 点 值 式 & 取 值 方法 ， 通 过 自 适 应 5 取 值 方法 能 找到 属性 个 
的 实用 性 。 数 更 少 ， 而 分 类 精度 更 高 的 属性 集 ; 或 是 得 到 在 其 中 一 项 接近 
4.3 点 值 式 与 自 适应 ô 取 值 方法 的 对 比 的 情况 下 ， 另 一 项 更 好 的 结果 。 因 为 结合 了 实际 问题 ， 这 种 优 
对 点 值 式 5 取 值 方法 设置 5=0.15 ; 对 自 适 应 5 取 值 方法 设 — 势 是 十 分 明显 的 ， 例 如 在 对 WPBC 数据 集 采 用 
z=0.4，B=0.6， 且 设置 5 取 值 区 间 为 [0.02,0.4]， 按 0.02  “F2HARNRS+SVM”* 方 式 得 到 的 结果 中 ， 相 比 点 值 式 s 取 值 方 


曾 进 ， 共 取得 20 5 取 值 。 针 对 7 个 数据 集 ， 分 别 在 SVM 分 ”法 ,在 自 适 应 的 5 取 值 方法 下 ,分 类 精度 提升 了 近 11 个 百分点 ， 
类 器 和 1-NN 分 类 器 上 对 两 种 方法 进行 对 比 。 虽然 得 到 约 简 集 合 中 的 属性 个 数 为 17 个 ， 比 之 多 了 10 个 ,但 

两 种 取 值 方法 在 SVM 分 类 器 上 的 实验 结果 如 表 2 所 示 。 是 原 属性 集 的 属性 个 数 是 33 个 ， 该 约 简 集合 可 以 认为 是 较 好 
的 约 简 集合 ， 反 观点 值 式 s 取 值 方法 ， 虽 然 得 到 约 简 集合 中 的 
性 个 数 更 少 ， 但 分 类 精度 损失 严重 ， 并 不 能 认为 是 较 好 的 约 


表 2 F2HARNRS+SVM 的 实验 结 


数 F2HARNRS+SVM B 
i 点 值 式 mm 简 集合 .可 见 自 适 应 的 5 取 值 方法 能 进一步 提升 算法 的 实用 性 。 
"m 集 属性 ”分 类 属性 ”分 类 5 ”结束 语 
Au 个 数 ”精度 个 数 ”精度 
邻 域 粗糙 集约 简 算法 的 效果 与 邻 域 大 小 的 5 取 值 紧密 相关 。 


Wine 0.15 6 0.9836 0.12 7 0.9945 


本 文 对 分 析 了 5 取 值 对 算法 效果 的 影响 ， 指 出 点 值 式 5 取 值 方 
法 的 不 足 ， 将 对 5 取 值 的 评价 标准 由 仅 依 据 人 的 经 验 改进 为 结 
合 实际 数据 集 和 分 类 器 的 性 质 ， 实 验证 明 该 方法 是 可 行 的 。 在 
数据 训练 阶段 求 得 合适 的 5 取 值 ， 进 而 得 到 满足 实际 需求 的 属 
性 约 简 集 合 ， 对 减轻 分 类 任务 的 工作 量 ， 保 持 甚 至 提高 分 类 任 


WDBC 0.15 12 0.9750 0.12 7 0.9743 


Sonar 0.15 7 0.7306 | 0.24 18 0.8256 


WPBC 0.15 7 0.6664 0.34 17 0.7705 


Ionosphere — 0.15 9 0.8832 0.16 9 0.8918 
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